A Named Entity recognizer for French (Un reconnaisseur d'entités nommées du Français) [in French]
نویسندگان
چکیده
We propose to demonstrate a french named entity recognizer trained on the French TreeBank enriched with named entity annotations. Mots-clés : REN, POS, apprentissage automatique, French Treebank, extraction d’information, CRF.
منابع مشابه
Adaptation d'un système de reconnaissance d'entités nommées pour le français à l'anglais à moindre coût (Adapting a French Named Entity Recognition System to English with Minimal Costs) [in French]
RÉSUMÉ La portabilité entre les langues des systèmes de reconnaissance d’entités nommées est coûteuse en termes de temps et de connaissances linguistiques requises. L’adaptation des systèmes symboliques souffrent du coût de développement de nouveaux lexiques et de la mise à jour des règles contextuelles. D’un autre côté, l’adaptation des systèmes statistiques se heurtent au problème du coût de ...
متن کاملA Mixed Morpho-Syntactic and Statistical Approach to Chinese Named Entity Recognition (Une approche mixte morpho-syntaxique et statistique pour la reconnaissance d'entités nommées en langue chinoise) [in French]
متن کامل
Search and usage of named conceptual entities in a categorisazion task (Recherche et utilisation d'entités nommées conceptuelles dans une tâche de catégorisation) [in French]
متن کامل
Utilisation du réseau sémantique de l'UMLS pour la définition de types d'entités nommées médicales
Named Entities are important concepts, regarding Question-Answering (QA) systems. Nevertheless, Named Entities categories are usually defined in a very broad sense: date, geographical area, and so on. It should quite profitable, for medical QA systems, to benefit from Named Entities especially dedicated to medicine. The UMLS is an important terminological tool created and maintained by the NLM;...
متن کاملNamed Entity Recognition and Correction in OCRized Corpora (Détection et correction automatique d'entités nommées dans des corpus OCRisés) [in French]
Résumé. La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d’erreurs à l’aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue géné...
متن کامل